查看原文
其他

国产大语言模型“狂飙”突围 | 星科技•专精特新“小巨人”

联想之星 2023-10-20




前沿科技

 国家级

专精特新

“小巨人”



随着大模型时代到来,国内出现“百模大战”的局面。达观数据自2023年3月宣布研发大语言模型以来,一直积极探索大语言模型的专业化、特长化和产品化。通过多年的高质量数据积累,不断精进算法创新,结合多年的文本处理工程实践经验,已开发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。


7月伊始,达观正式对外发布“曹植”大语言模型应用公测版,可在达观数据官网申请试用(http://www.datagrand.com/products/aigc/
)。



01

“曹植”大模型三大特点


1、长文本


达观数据在长文本处理领域深耕多年,研发的“曹植”大模型特别擅长做长文档的写作、审核、润色、翻译等。“曹植”通过其卓越的自动化写作能力,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,轻松应对长篇大论的要求。无论是白皮书、技术报告还是品牌故事,“曹植”大模型都能为客户提供高质量、流畅的文案撰写服务。


“曹植”大模型独特的专业性报告写作能力


长文本最大的难点在于文档内存在诸多复杂结构元素,如文本、图片、表格、数据图、标题、段落、页眉页脚、摘要等版面元素,以及跨多个文档间存在复杂关系,还需解析各类复杂格式,如PDF、PPT、Excel、Doc,扫描图片等;为提升长文本写作专业性,达观专门训练了多模态AIGC生成能力,可自动生成表格、图表、数据等元素。


2、多语言


“曹植”同时拥有其杰出的多语言写作和翻译能力,使得用户在不同语言环境下都能得到高质量的文案服务。无论需要撰写一篇英文论文、一封法语商业邮件,或者对一篇日文新闻进行翻译,“曹植”都能帮助用户轻松应对各种语言挑战。


“曹植”大模型多语言写作能力


多语言翻译最大特色是在翻译的同时可以对原文的标题、段落等内容实现 1:1版式还原,无需更改格式,提供实时的翻译体验,广泛应用于多语言文档密集处理场景。


“曹植”大模型多语言 1:1版式还原翻译能力


3、垂直化


大模型不只有“一问一答”的产品形态,需要和垂直行业应用充分结合,只有和行业应用充分结合,才能解决企业实际的问题。“曹植”可针对不同行业开发特定应用和训练专属数据库,使用海量训练数据进行“曹植”大模型的预训练,生成具备基础语言能力和垂直应用能力的模型;支持个性化定制,本地服务器私有化部署,独家提供监督精调服务,以加强垂直领域专用任务的能力。


“曹植”大模型垂直行业应用能力


加强“曹植”大模型垂直领域专用任务的能力


达观坚持训练数据与算法模型自主可控,实现与国产GPU联调对接,推理功能成功上线运行,与国产GPU合作伙伴开展长期合作,不断优化高质量硬件设备,以适应市场需求和技术发展,为客户提供了“算力+模型”的全套国产化信创方案,让大模型赋能百业。


“曹植”大模型赋能多行业应用


“曹植”垂直领域大语言模型也将进一步夯实达观产业应用智能化基座,全面增强AI全产品矩阵能力。这也是国内大规模语言模型中首批可落地的产业应用级模型,未来将可持续赋能金融、政务、制造等多个垂直领域和通用场景人工智能的落地和发展。


02

创业需要坚持长期主义


乍看到一个名唤“曹植”的国产版Gpt模型时,大部分人都会有些愣神。但转念一想,就能体会到个中深意:曹植文思敏捷、七步成诗,成为人工智能版的“曹植”,正是一个大语言模型的迭代目标。


据“上观新闻”报道,拍板使用这个名字的,是达观数据董事长兼CEO陈运文。他学计算机出身,却是一名非典型“理工男”。热爱阅读的他常说,自己的名字就注定了与文字为伍的“宿命”。


2015年,陈运文在张江“天之骄子孵化器”里敲下了第一行代码,如今达观数据已经成长为文本智能处理技术领域的准独角兽企业。有业内人士甚至认为,达观数据最新推出的“曹植”系统,在垂直领域甚至不输ChatGPT。


近日,“上观新闻”走访了达观数据,并对陈运文进行了专访。


走进达观数据的办公室,映入眼帘的是一堵深灰色的企业文化墙。与其他公司的企业文化展示区不同,墙上是有关中国文字及AI发展的历史知识,印着“中国字的发展历史”“语言文字的知识”“现代文字的编码与处理”等信息。


这处位于张江高科技园区浦东软件园的办公区域,是达观数据的新家。2015年,陈运文带着30余人的团队开始创业时,只租了孵化器里一间20多平方米的办公室,唯一的会议室还要和其他初创公司共享。


当时,不是所有人都能理解他的决定。从复旦大学计算机系博士毕业后,陈运文先后在百度、盛大、腾讯担任研发和管理工作。为什么要放弃稳定的工作,选择艰辛的创业之路?他说,产业的广阔发展空间、团结而有战斗力的团队、火热的创新创业氛围都让他坚定了在上海创业的想法。此外,张江鼓励创新的配套政策也发挥了极大的支撑作用。“虽然孵化器空间不大,但和其他创业者一起奋斗的感觉特别棒。”


在陈运文看来,创业的过程就好比“进窄门、走远路、见微光”。“首先,选择方向时要有自己的坚持,有些看上去没那么众人皆知的领域,可能反而蕴藏着机会。”在人机大战占据人工智能主流发展趋势时,他把目光投向文本智能处理这道“窄门”,发现了其中巨大的市场潜力。


“其次,创业者一定要坚持一点长期主义。”从人才紧缺、技术难题到业务拓展带来的挑战,桩桩件件都是创业路上的绊脚石。面对困难,陈运文没有轻易放弃或者更换赛道,而是踏实做好技术开发,同时密切关注市场动向,利用人工智能技术,为金融、法律等各类主体提供办公流程自动化、文档智能审阅、文字识别、企业级垂直搜索、智能推荐等智能文本机器人产品。这些“机器人白领”可以代替人工从事财务、审核等量大繁琐的工作,大幅提升了办公效率,如今已被中国银行、深交所等数百家单位购买使用,还在上海“一网通办”平台上工作。


03

成为人工智能行业的一面旗帜


八年创业,果实累累,陈运文的压力却始终没有减轻。“压力主要源于全球科技发展带来的挑战。”他感慨,近几个月来,几乎每天都有新的技术问世,“我们不但要紧跟这些技术,不能掉队,还要争取超越它们”。


“曹植”系统就是一次“超车”尝试。凭借多年文本智能技术积累和垂直领域场景业务经验,达观数据积极探索大语言模型的实践,研发出了国产版Gpt“曹植”系统,形成垂直、专用、自主可控的国产版ChatGPT模型。


陈运文认为,与ChatGPT这类通用领域生成式大规模语言模型相比,“曹植”系统最大的优势就在于“垂直”。比如,生成券商报告对目前的ChatGPT来说是困难的,但达观金融报告AIGC智能写作能够立足财经、金融市场研究写作场景,高效地完成研究类报告撰写,保证专业报告写作的高质量和时效性。同时,“曹植”系统还可内置在客户各类业务系统中提供专用服务,赋能金融、政务、制造等多个垂直领域和通用场景人工智能的落地和发展。目前系统处于内测阶段,计划今年上半年正式发布。


近年来,达观数据在北京、深圳、成都、苏州等地成立了子公司,服务团队遍及全国,员工人数也从起初的30多人增加到现在的600余人,其中“90后”已经担当主力。“我们团队扩张得很快。”陈运文告诉记者,光今年一季度,达观数据就聘用了58名新员工。“我们看上的人才,阿里、腾讯、华为也都想要。”他笑言,从这个角度来说,公司一直在努力跟“大厂”抢人,“虽然很难,但对于一家科技公司来说,人才是最宝贵的资源,所以我们必须尽全力吸引优秀人才”。


引才不易,留才更难。陈运文表示,公司将持续在选、用、育、留等方面下功夫,让更多青年人才在上海这片创新创业热土上实现人生价值。同时,达观数据将立足上海,将产品推广到全国各个省市,争取早日上市,成为上海人工智能大数据行业的一面旗帜。



本文来源:上观新闻、达观数据



END



相关阅读





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存